Modèles probabilistes pour les fréquences de mots et la recherche d'information. (Probabilistic Models of Document Collections)

نویسنده

  • Stéphane Clinchant
چکیده

The present study deals with word frequencies distributions and their relation to probabilistic Information Retrieval (IR) models. We examine the burstiness phenomenon (a rich get richer phenomenon) of word frequencies in textual collections. We propose to model this phenomenon as a property of probability distributions and we show that the Beta Negative Binomial distribution is a good statistical model for words frequencies. We then focus on probabilistic IR models and their fundamental properties. We then introduce a novel family of probabilistic models, based on Shannon information. These new models bridge the gap between significant properties of IR models and the burstiness phenomenon of word frequencies. These new models yield comparable performances to state of the art IR models and outperform them when Pseudo Relevance Feedback is used. Lastly, the better performances of our models for Pseudo Relevance Feedback (PRF) lead us to study empirically and theoretically PRF models. We propose a theoretical framework which explain well the empirical behaviour and performance of PRF models. Overall, this analysis highlights interesting properties for pseudo relevance feedback and shows that some state-of-the-art model are inadequate.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

La structure thème-rhème pour l'ordonnancement de documents en recherche d'information

RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une ...

متن کامل

Texte et Représentation en Recherche d'Information

Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...

متن کامل

Modèle unifié pour la recherche d'information sémantique

Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...

متن کامل

On the Probabilistic Modelling of the Form ~ Function Articulation for Prosodic Phenomena

RÉSUMÉ – Modélisation probabiliste de l’interface « forme ~ fonction » pour des phénomènes intonatifs Nous explorons l’application des méthodes hybrides, reposant à la fois sur des représentations symboliques (phonologiques) et probabilistes dans la modélisation de l’interface « forme ~ fonction » pour des phénomènes intonatifs. À partir d’une représentation symbolique ancrée dans l’acoustique ...

متن کامل

Traitement d'attributs inter-dépendants pour la recherche d'information par treillis

HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2011